1 00:00:00,734 --> 00:00:02,767 [음악] 2 00:00:03,790 --> 00:00:04,840 [아나운서] 공공자료입니다 3 00:00:07,834 --> 00:00:10,599 [칼 맬러머드] 안녕하세요, 칼 맬러머드입니다. 4 00:00:10,599 --> 00:00:12,960 일반 색인에 오신 것을 환영합니다. 5 00:00:12,960 --> 00:00:20,050 무료 및 무제한 제공 1억 7백만에서 추출한 n-그램 세트를 사용하고, 6 00:00:20,050 --> 00:00:24,790 233,000,728개의 저널 기사. 7 00:00:24,790 --> 00:00:29,970 n-gram은 알려진 단일 단어에서 unigram으로, 두 단어로 된 구(bigrams)로 8 00:00:29,970 --> 00:00:33,840 5-gram으로 알려진 최대 5단어 구. 9 00:00:33,840 --> 00:00:40,440 3,550억 개의 n-gram 행이 있습니다. 이번 일반 인덱스 릴리스에서 각 10 00:00:40,440 --> 00:00:43,910 저널 기사의 히트에 해당합니다. 11 00:00:43,910 --> 00:00:50,579 Spacy라는 툴킷을 사용하여 추출했습니다. 우리가 나눈 n-gram 12 00:00:50,579 --> 00:00:51,700 16개의 파일에 걸쳐 있습니다. 13 00:00:51,700 --> 00:00:56,820 각 행에는 md5 해시가 연결되어 있습니다. 저널 기사를 나타냅니다. 14 00:00:56,820 --> 00:01:00,350 또한, 우리는 기사의 n-gram. 15 00:01:00,350 --> 00:01:05,850 시간이 지남에 따라 빈도도 나열되기를 바랍니다. 전체 코퍼스에서 관련성 메트릭 16 00:01:05,850 --> 00:01:08,600 TD/IDF로 알려져 있습니다. 17 00:01:08,600 --> 00:01:14,450 n-gram 외에도 일반 색인 Yake를 사용하여 추출한 키워드 포함 18 00:01:14,450 --> 00:01:20,320 toolkit.Yake "텍스트 통계에 의존 단일 문서에서 추출한 기능 19 00:01:20,320 --> 00:01:24,190 텍스트의 가장 중요한 키워드를 선택하십시오." 20 00:01:24,190 --> 00:01:29,890 일반 색인 키워드 테이블에는 다음이 포함됩니다. 총 190억 개의 키워드. 21 00:01:29,890 --> 00:01:36,530 마지막으로 일반 색인에는 메타데이터가 포함되어 있습니다. 테이블, md5 해시를 다음과 같은 항목에 매핑 22 00:01:36,530 --> 00:01:42,130 저널 기사에 대한 DOI 고유 주소, 제목, 저자 및 저널. 23 00:01:42,130 --> 00:01:47,000 이것은 일반 지수의 초기 릴리스이며, 진행중인 작업. 24 00:01:47,000 --> 00:01:49,900 경우에 따라 텍스트 추출에 실패했습니다. 25 00:01:49,900 --> 00:01:54,450 때때로 메타데이터를 사용할 수 없거나 아마도 정확하지 않을 수도 있습니다. 26 00:01:54,450 --> 00:01:59,830 기본 코퍼스는 크지만 완전하지 않고 최신 상태가 아닙니다. 27 00:01:59,830 --> 00:02:04,430 이를 개선할 수 있는 방법은 여러 가지가 있지만, 그리고 우리는 장군을 만들기를 기대합니다 28 00:02:04,430 --> 00:02:07,369 시간이 지남에 따라 더 나은 인덱스. 29 00:02:07,369 --> 00:02:13,260 일반 지수는 약 38을 차지합니다. Postgres 형식의 테라바이트 데이터 30 00:02:13,260 --> 00:02:20,010 덤프, 그러나 압축을 사용하면 이 ASCII 데이터는 8.5테라바이트로 줄어듭니다. 31 00:02:20,010 --> 00:02:25,139 여기에서 직접 데이터를 다운로드할 수 있으며, 또는 bittorrent와 같은 도구를 사용하십시오. 32 00:02:25,139 --> 00:02:31,540 거울이나 다른 공개를 자유롭게 만드십시오. 일반 색인을 재배포하기 위한 리포지토리. 33 00:02:31,540 --> 00:02:37,689 우리의 희망은 그것이 숫자에 포함될 수 있다는 것입니다 용도. 우리는 Postgres 데이터베이스를 사용하고 있습니다. 34 00:02:37,689 --> 00:02:42,919 일반 색인을 사용하여 마스터 목록에서 식물의 이름. 35 00:02:42,919 --> 00:02:48,219 색인을 사용하여 다른 항목을 검색할 수 있습니다. 화학 물질, 다양한 유전자와 같은 개체 36 00:02:48,219 --> 00:02:54,300 인코딩, 단백질, 재료, 지명, 또는 다른 엔터티. 37 00:02:54,300 --> 00:03:00,129 Postgres 데이터베이스 대신 다른 기술, BERT와 같은 데이터에 적용할 수 있습니다. 38 00:03:00,129 --> 00:03:05,909 이것은 조회 도구, 지식 사전, 지식에 대한 지도, 우리가 믿는 도구 39 00:03:05,909 --> 00:03:10,500 실습에 필수적인 시설입니다 우리 현대의 과학. 40 00:03:10,500 --> 00:03:16,919 지식에 대한 이 일반 지표는 사용 가능한 기본 말뭉치, 오히려 사실 41 00:03:16,919 --> 00:03:19,099 코퍼스에서 추출됩니다. 42 00:03:19,099 --> 00:03:23,599 이것은 비소비 및 변형 사용. 43 00:03:23,599 --> 00:03:28,569 우리는 이것을 공공 유틸리티로 봅니다. 우리는 주장합니다. 일반 지수에 대한 소유권이 없습니다. 44 00:03:28,569 --> 00:03:35,599 공개 도메인 전용입니다. 시리즈 당신이 할 수있는 방해되지 않은 사실의 45 00:03:35,599 --> 00:03:37,019 하고 싶은 대로 하세요. 46 00:03:37,019 --> 00:03:40,220 보유된 권리가 없습니다. 47 00:03:40,220 --> 00:03:46,510 발견의 길에 있는 학자들은 상담할 수 있습니다. 목적지를 더 빨리 찾기 위한 이 로드맵 48 00:03:46,510 --> 00:03:52,540 그들은 방문하기를 원합니다. 우리는 단지 도슨트에 불과합니다. 세계의 방대한 기록 보관소의 복도, 49 00:03:52,540 --> 00:03:58,769 학자와 과학자의 집단 공동체 그리고 50 00:03:58,769 --> 00:04:01,370 이 지식의 사원. 51 00:04:01,370 --> 00:04:08,219 알렉산드리아 도서관의 이 신전들 수도사들로부터 알렉산드라 도서관까지 52 00:04:08,219 --> 00:04:14,239 아일랜드의 광대한 현대 연구 도서관에 오늘날 아랍과 유대 서기관들로부터 53 00:04:14,239 --> 00:04:19,910 지혜의 집을 짓기 위해 함께 일하다 바그다드에서 지식의 공장으로 54 00:04:19,910 --> 00:04:25,071 현대 동인도 교역소에서 옥스포드와 캠브리지의 인쇄기, 이들은 55 00:04:25,071 --> 00:04:30,400 학자들이 반드시 방문해야 하는 목적지 그들의 기술을 발전시키다, 배우다 56 00:04:30,400 --> 00:04:31,950 우리보다 먼저 온 사람들. 57 00:04:31,950 --> 00:04:37,190 이 사원에는 모든 지식의 총합이 들어 있으며, 그러나 우리는 그 지식을 찾을 수 있어야 합니다. 58 00:04:37,190 --> 00:04:39,500 일반 색인은 지도입니다. 59 00:04:39,500 --> 00:04:44,630 이것은 모든 인간 지식의 총합에 대한 지도가 아니며, 60 00:04:44,630 --> 00:04:46,410 그러나 확실히 상당한 부분입니다. 61 00:04:46,410 --> 00:04:51,960 지식의 확산과 확산을 위해 계속하려면, 우리가 어깨에 서려면 62 00:04:51,960 --> 00:04:56,520 거인들에게 이 지도를 제공해야 합니다. 방대한 아이디어의 세계. 63 00:04:56,520 --> 00:05:02,670 일반 색인은 하나의 도구, 도구에 불과합니다. 시간이 지남에 따라 품질이 향상되기를 바랍니다. 64 00:05:02,670 --> 00:05:08,250 범위 내에서 유용한 기여 65 00:05:08,250 --> 00:05:09,460 당신의 과학 실천에. 66 00:05:09,460 --> 00:05:14,121 우리는 당신이 이 일반 색인도 넣어주기를 바랍니다 색인을 만들 수 있다는 놀라운 용도 67 00:05:14,121 --> 00:05:19,670 다른 도구를 만들 수 있다는 것이 더 좋습니다. 학자 커뮤니티가 함께 일할 수 있습니다. 68 00:05:19,670 --> 00:05:24,910 광활한 깊이를 캐기 위한 공통의 탐구에서 이 배움의 바다. 69 00:05:24,910 --> 00:05:30,160 나는 우리 모두가 공통의 목표를 공유하고 있다고 믿습니다. 공통의 희망. 70 00:05:30,160 --> 00:05:35,660 과학자로서, 학자로서, 예술가로서, 작가로서, 세계의 시민으로서, 희망하는 어린이로서 71 00:05:35,660 --> 00:05:41,770 나는 호기심 많은 인간으로서 배우기 위해 우리 모두는 증가와 확산을 바랍니다 72 00:05:41,770 --> 00:05:47,100 지식은 우리의 세상을 더 좋게 만들 것입니다 장소, 그것은 우리가 우리의 이해를 도울 것입니다 73 00:05:47,100 --> 00:05:53,110 세계, 질병과 빈곤 치료, 발전 과학과 상업의 발전과 74 00:05:53,110 --> 00:05:55,000 인문학과 예술. 75 00:05:55,000 --> 00:06:01,140 과학은 우리 모두가 말해야 하는 언어입니다. 우리는 우리의 세상을 개선해야 합니다. 76 00:06:01,140 --> 00:06:03,620 듣기 주셔서 감사합니다. 77 00:06:03,620 --> 00:06:11,890 [씰이 짖고 있다] 78 00:06:11,890 --> 00:06:13,950 [음악]